Trabalhando com o Jupyter

Ferramenta que permite criação de código, visualização de resultados e documentação no mesmo documento (.ipynb)

Modo de comando: esc para ativar, o cursor fica inativo

Modo de edição: enter para ativar, modo de inserção

Atalhos do teclado (MUITO úteis)

Para usar os atalhos descritos abaixo a célula deve estar selecionada porém não pode estar no modo de edição.

  • Para entrar do modo de comando: esc

  • Criar nova célula abaixo: b (elow)

  • Criar nova célula acima: a (bove)

  • Recortar uma célula: x

  • Copiar uma célula: c
  • Colar uma cálula: v

  • Executar uma célula e permanecer nela mesma: ctrl + enter

  • Executar uma célula e mover para a próxima: shift + enter

  • Para ver todos os atalhos, tecle h

Tipos de célula

Code: Para código Python

Markdown: Para documentação

Também existem Raw NBConverter e Heading

Pandas (http://pandas.pydata.org/)

  • Biblioteca Python para análise de dados
  • Provê ferramentas de alta performance e fácil usabilidade para análise de dados

Como instalar

Matplotlib (http://matplotlib.org/)

  • Biblioteca Python para plotar gráficos 2D

Como instalar


In [7]:
import pandas as pd
import matplotlib
%matplotlib inline

Carregando um arquivo csv em um DataFrame do Pandas

  • pd.DataFrame.from_csv(file_name)

    Se, ao usar este comando, você se deparar com um UnicodeDecodingError, adicione o parâmetro encoding='utf-8'

cast.csv


In [ ]:

release_dates.csv


In [ ]:

titles


In [ ]:

df.head(n):

  • Visualizar as primeiras n linhas.
  • Default: n = 5.

In [ ]:


In [ ]:

df.tail(n):

  • Visualizar as últimas n linhas.
  • Default: n = 5.

In [ ]:


In [ ]:

Quantos registros há no conjunto?

len(df):

  • Tamanho do df

In [ ]:

Quais são os possíveis valores para a coluna type?

df[col]:

  • Visualizar uma coluna do df

ou

df.col:

  • Se o nome da coluna não tiver, espaços, caracteres especiais ou for uma variável

Obs: Ao selecionar uma coluna e manipulá-la fora de um DataFrame, a mesma é tratada como uma Série.


In [ ]:


In [ ]:


In [ ]:

df[col].unique():

  • Mostrar os possíveis valores de uma coluna

In [ ]:

Quantos atores e quantas atrizes há no conjunto?

df[col].value_counts():

  • Contagem de quantos registros há para cada valor possível da coluna col (somente se col for categórica)

In [ ]:

Operações com colunas


In [ ]:

Operações Aritméticas


In [ ]:

Comparações


In [ ]:

Filtrar

  • Por valor específico de uma coluna

In [ ]:

  • Por colunas

In [ ]:

  • Por valor nulo ou não nulo

In [ ]:


In [ ]:

  • Por vetor de booleanos

In [ ]:


In [ ]:


In [ ]:


In [ ]:

  • Preencher valores nulos

Por DataFrame


In [ ]:

Por coluna


In [ ]:

Quantos atores atuaram em cada ano?


In [ ]:


In [ ]:


In [ ]:


In [ ]:


In [ ]:

Qual foi a diferença entre o número de atores e atrizes que atuaram em cada década?


In [ ]:


In [ ]:


In [ ]:


In [ ]:

Datas


In [ ]:


In [ ]:


In [ ]:

Quanto % dos filmes foram lançados na sexta-feira?


In [ ]:

Merge


In [ ]:


In [ ]:


In [ ]:

Qual o nome e ano do filme mais antigo?


In [ ]:

Quantos filmes são de 1960?


In [ ]:

Quantos filmes são de cada ano dos anos 70?


In [ ]:


In [ ]:


In [ ]:

Quantos filmes foram lançados desde o ano que você nasceu até hoje?


In [ ]:

Quais são os nomes dos filmes de 1906?


In [ ]:


In [ ]:

Quais são os 15 nomes de filmes mais comuns?


In [ ]:

Em quantos filmes Judi Dench atuou?


In [ ]:

Liste os filmes nos quais Judi Dench atuou como o ator número 1, ordenado por ano.


In [ ]:

Liste os atores da versão de 1972 de Sleuth pela ordem do rank n.


In [ ]:

Quais atores mais atuaram em 1985?


In [ ]:


In [ ]:

SciKit Learn (http://scikit-learn.org)

  • Biblioteca Python para mineração e análise de dados

Como instalar


In [8]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix
from sklearn.cross_validation import train_test_split
import pickle
import time
time1=time.strftime('%Y-%m-%d_%H-%M-%S')

iris.csv


In [ ]:


In [ ]:


In [ ]:


In [ ]:

Treinar modelo de Árvore de Decisão


In [ ]:

Salvar modelo


In [ ]:

Carregar modelo


In [ ]:

Predição para casos de teste


In [ ]:


In [ ]: